メインコンテンツへスキップ

All Posts

News bits

Gemini Deep Research のビジュアルレポート機能

Gemini Deep Researchがビジュアルレポート機能を強化した。Google AI Ultra加入者向けに、カスタム画像、チャート、インタラクティブシミュレーションを含むリッチなレポートを自動生成可能になった。

テキスト分析だけでなく、複雑な情報を視覚的に表現し、マーケティング予算配分や科学理論探索などのタスクで活用できる。ダイナミックシミュレーションモデルにより、変数に基づく結果予測が可能。

Geminiアプリのプロンプトバーから「Deep Research」を選択して利用できる。

出展:Bring your research to life with integrated visual reports from Gemini Deep Research

Google AI、Interactions APIが発表

Googleが「Interactions API」を発表した。これはGeminiモデルやエージェントと対話するための統一されたインターフェースであり、現在はパブリックベータとして提供されている。

このAPIは単一のRESTfulエンドポイント(/interactions)を提供し、モデルパラメータやエージェントパラメータを指定して対話を行う。またGemini Deep Research(deep-research-pro-preview-12-2025)へのアクセスがサポートされている。

python
from google import genai

client = genai.Client()

interaction = client.interactions.create(
    agent="deep-research-pro-preview-12-2025",
    input="Research the history of Google TPUs.",
    background=True
)

出展:Interactions API: A unified foundation for models and agents

Julesにプロアクティブなコーディング機能の追加

Google Labsのコードエージェント「Jules」に、プロアクティブなコーディング機能が追加された。ユーザーからの指示を待つだけでなく、バックグラウンドで自律的にタスクを提案・実行することが可能になった。

新たに追加された「Suggested Tasks」機能では、リポジトリを継続的にスキャンし、TODOコメントの解消などの改善案を自動的に作成して提案する。また「Scheduled Tasks」機能では、依存関係の更新や定期的なメンテナンスなど、予測可能なタスクを指定したスケジュールで実行できる。これらはGoogle AI ProおよびUltraのサブスクライバー向けに提供される。

出展:Jules from Google Labs introduces proactive coding features

Gemini 2.5 DeepThink の発表

GoogleがGemini 2.5 DeepThinkを発表。複雑な問題に対し、複数のアイデアを同時に生成・評価・修正して、より創造的で思慮深い回答を導き出す「並列思考」技術を搭載。

  • 並列思考: 複数の推論パスを同時に探求し、仮説を組み合わせることで、質の高い解決策を生成。
  • 拡張された推論時間: より深く考える時間を与え、複雑な問題に対する直感的な解決能力を向上。
  • 新しい強化学習技術: 拡張された推論パスの活用を学習し、時間と共により優れた問題解決能力を獲得。
  • 最先端のパフォーマンス: 2025年の国際数学オリンピック(IMO)で金メダルを獲得したモデルのバリエーションであり、コーディング、科学、推論などのベンチマークで高い性能を達成。
  • 安全性の向上: Gemini 2.5 Proと比較して、コンテンツの安全性とトーンの客観性が向上。

Google AI Ultra加入者は2025年8月1日からGeminiアプリで利用可能。数週間以内に、Gemini APIを通じても提供予定。

出展:Introducing Gemini 2.5 DeepThink

NotebookLM、ビデオ概要とStudioパネルのアップグレードを発表

パーソナライズされたAIリサーチアシスタントであるNotebookLMが、新機能として「ビデオ概要(Video Overviews)」の生成と、「Studioパネル」のアップグレードを発表。複雑なトピックの理解やコンテンツ作成を支援する機能が強化された。

  • ビデオ概要 (Video Overviews): ナレーション付きのスライド形式で情報を提示する新しい出力タイプ。AIがソースドキュメント内の画像、図、引用を取り込みながら新しいビジュアルを生成する。ユーザーはトピック、学習目標、対象読者を指定して概要のカスタマイズが可能。
  • Studioパネルのアップグレード: パネルが再設計され、1つのノートブック内に同じ種類の出力(音声概要やマインドマップなど)を複数作成・保存できるようになった。これにより、言語や対象者ごとに異なるバージョンのコンテンツを管理可能になる。また、新しいインターフェースはマルチタスクに対応し、音声概要を聴きながらマインドマップを閲覧するなどの操作が可能。

出展:NotebookLM adds Video Overviews and Studio upgrades

Veo 3 Fastの導入とimage-to-video機能の追加

Googleの動画生成モデルVeo 3に、速度と価格を最適化した新モデル「Veo 3 Fast」が追加。あわせて、既存のVeo 3とVeo 3 Fastの両方で、静止画から動画を生成するimage-to-video機能が利用可能になった。両モデルと新機能は、Gemini APIを通じて有料プレビューとして提供される。

  • Veo 3 Fast
    • 速度とコスト効率を重視したモデルで、高品質な動画を効率的に生成。
    • 価格は音声付きで$0.40/秒
    • プログラマティック広告、ラピッドプロトタイピング、SNSコンテンツの大規模生成などのユースケースを想定。
  • Image-to-Video 機能
    • Veo 3とVeo 3 Fastで利用可能。
    • 入力画像とテキストプロンプトを組み合わせ、一貫性を保った動的な動画シーケンスを生成。
    • 価格はtext-to-videoの出力と同額。Veo 3の場合は音声付きで$0.75/秒

出展:Veo 3 Fast and new image-to-video capabilities

LangExtract: Geminiを活用した情報抽出ライブラリ

GoogleはLangExtractを発表。これは、非構造化テキストから構造化情報を抽出するための新しいオープンソースPythonライブラリ。GeminiのようなLLMを利用し、ユーザーのカスタム指示に基づいて、柔軟性と追跡可能性を両立した情報抽出を実現する。医療レポートや法的文書など、テキストが多用される分野での活用が期待される。

  • 正確なソースグラウンディング: 抽出された全てのエンティティは、ソーステキスト内の正確な文字オフセットにマッピングされ、追跡可能性を確保。
  • 信頼性の高い構造化出力: 少数の例(few-shot)を提供することで、GeminiモデルなどのControlled Generation機能を活用し、一貫した構造化出力を保証。
  • 長文コンテキストの最適化: チャンキング戦略、並列処理、複数回の抽出パスを用いて、長文からの情報検索を効率化。
  • インタラクティブな可視化: 抽出エンティティを文脈の中でレビューできる、自己完結型のインタラクティブHTMLを生成。
  • 柔軟なLLMバックエンド: GoogleのGeminiファミリーやオープンソースのオンデバイスモデルなど、様々なLLMをサポート。
  • ドメイン横断的な柔軟性: LLMをファインチューニングすることなく、少数の例を示すだけで、あらゆるドメインの情報抽出タスクを定義可能。
  • LLMの世界知識の活用: モデルが持つ世界知識を利用して、抽出された情報を補足することが可能。

出展:Introducing LangExtract: A Gemini powered information extraction library

リポジトリ:google/langextract

#LangExtractの利用例

以下は、シェイクスピアの戯曲の一節から登場人物、感情、関係性を抽出するコード例。

まず、ライブラリをインストールする。

bash
pip install langextract

次に、抽出タスクを定義し、実行する。明確なプロンプトと高品質な few-shot の例を提供することで、モデルの出力をガイドする。

python
import textwrap
import langextract as lx

# 1. 簡潔なプロンプトを定義
prompt = textwrap.dedent("""\
登場人物、感情、関係性を出現順に抽出してください。
抽出には正確なテキストを使用し、言い換えやエンティティの重複は避けてください。
各エンティティには文脈を追加するための意味のある属性を提供してください。""")

# 2. モデルをガイドするための高品質な例を提供
examples = [
    lx.data.ExampleData(
        text=(
            "ROMEO. But soft! What light through yonder window breaks? It is"
            " the east, and Juliet is the sun."
        ),
        extractions=[
            lx.data.Extraction(
                extraction_class="character",
                extraction_text="ROMEO",
                attributes={"emotional_state": "wonder"},
            ),
            lx.data.Extraction(
                extraction_class="emotion",
                extraction_text="But soft!",
                attributes={"feeling": "gentle awe"},
            ),
            lx.data.Extraction(
                extraction_class="relationship",
                extraction_text="Juliet is the sun",
                attributes={"type": "metaphor"},
            ),
        ],
    )]

# 3. 入力テキストに対して抽出を実行
input_text = (
    "Lady Juliet gazed longingly at the stars, her heart aching for Romeo")
result = lx.extract(
    text_or_documents=input_text,
    prompt_description=prompt,
    examples=examples,
    model_id="gemini-2.5-pro",)

抽出結果はJSONLファイルに保存し、インタラクティブなHTMLファイルとして可視化できる。

python
# 結果をJSONLファイルに保存
lx.io.save_annotated_documents([result], output_name="extraction_results.jsonl")

# ファイルからインタラクティブな可視化を生成
html_content = lx.visualize("extraction_results.jsonl")
with open("visualization.html", "w") as f:
    f.write(html_content)

著者について

Hi there. I'm hrdtbs, a frontend expert and technical consultant. I started my career in the creative industry over 13 years ago, learning on the job as a 3DCG modeler and game engineer in the indie scene.

In 2015 I began working as a freelance web designer and engineer. I handled everything from design and development to operation and advertising, delivering comprehensive solutions for various clients.

In 2016 I joined Wemotion as CTO, where I built the engineering team from the ground up and led the development of core web and mobile applications for three years.

In 2019 I joined matsuri technologies as a Frontend Expert, and in 2020 I also began serving as a technical manager supporting streamers and content creators.

I'm so grateful to be working in this field, doing something that brings me so much joy. Thanks for stopping by.